﻿# 
# 以下代码仅供参考。
# 
'''
问题2:数据关联。要求:修改PY301-2. py文件中代码，对比两组主题词的差异，输出两组的共有词语和分别的
特有词语。输出示例如下: (示例词语非答案)
共有词语:改革，(略),深化
2019特有:企业，(略), 加强
2019特有:效益, . (略),创新
注意:输出格式采用英文冒号和英文逗号，标点符号前后无空格，各词语间用逗号分隔，最后一个词语后无逗
号。
'''

import jieba


def fun(txt):
    fp = open(txt)
    res = fp.read()
    words = jieba.lcut(res)
    d = {}
    for word in words:
        if len(word) >= 2:
            d[word] = d.get(word, 0) + 1
    lt = list(d.items())
    lt.sort(key=lambda x: x[1], reverse=True)


    l = []
    for i in range(10):
        l.append(lt[i][0])

    return l



if __name__ == '__main__':
    d18 = fun('data2018.txt')
    d19 = fun('data2019.txt')

    res18 = '2018特有:'
    res19 = '2019特有:'
    common = '共有词语:'

    for i in range(len(d18)):
        if d18[i] in d19:
            common += d18[i] + ','
        else:
            res18 += d18[i] + ','
        if d19[i] not in common and d19[i] not in d18:
            res19 += d19[i] + ','

    print(common)
    print(res19)
    print(res18)
